随着政治态度在美国的意识形态上存在分歧,政治言论在lingus言中有所不同。美国政党之间不断扩大的两极分化是由于它们之间的相互理解的侵蚀而加速了。我们的目的是通过一个框架来使这些社区相互了解,该框架使用社区语言模型社区LM对社区特定的回答进行了针对社区的回答。在我们的框架中,我们在Twitter上确定了每个社区的党派成员,并在他们撰写的推文上进行了微调LMS。然后,我们使用对相应的LMS的及时探测两组的世界观,并提示对美国国家选举研究(ANES)2020年探索性测试调查提出对公共人物和群体的意见。我们将LMS与ANES调查结果产生的响应进行比较,并找到一定级别的对齐水平,该级别大大超过了几种基线方法。我们的工作旨在表明,我们可以使用社区LMS来查询任何一群人的世界观,以提供足够大的社交媒体讨论或媒体饮食。
translated by 谷歌翻译
传送消息的时间是许多实际自然语言处理任务的重要元数据,例如主题检测和跟踪(TDT)。 TDT系统旨在通过事件培养新闻文章的语料库,并且在这种情况下,描述相同事件的故事可能在同一时间写入。对TDT的时间建模之前的工作将其考虑在内,但并不能很好地捕获时间与事件的语义性质相互作用。例如,关于热带风暴的故事可能在短时间内写入短时间内,而关于电影发布的故事可能出现超过数周或数月。在我们的工作中,我们设计了一种神经方法,可以将时间和文本信息融入到事件检测的新闻文档的单个表示中。我们微调这些时间感知文件嵌入具有三态损耗架构,将模型集成到下游TDT系统中,并在英语中评估两个基准TDT数据集的系统。在回顾性设置中,我们将聚类算法应用于时间感知嵌入物,并在新闻2013数据集上显示基本电池的大量改进。在线流设置中,我们将文档编码器添加到现有的最先进的TDT管道,并证明它可以使整体性能有益。我们对时代表示和融合算法策略进行消融研究,表明我们所提出的模型优于替代策略。最后,我们探讨模型以检查它如何比以前的TDT系统更有效地处理重复事件。
translated by 谷歌翻译
Pre-trained language models, despite their rapid advancements powered by scale, still fall short of robust commonsense capabilities. And yet, scale appears to be the winning recipe; after all, the largest models seem to have acquired the largest amount of commonsense capabilities. Or is it? In this paper, we investigate the possibility of a seemingly impossible match: can smaller language models with dismal commonsense capabilities (i.e., GPT-2), ever win over models that are orders of magnitude larger and better (i.e., GPT-3), if the smaller models are powered with novel commonsense distillation algorithms? The key intellectual question we ask here is whether it is possible, if at all, to design a learning algorithm that does not benefit from scale, yet leads to a competitive level of commonsense acquisition. In this work, we study the generative models of commonsense knowledge, focusing on the task of generating generics, statements of commonsense facts about everyday concepts, e.g., birds can fly. We introduce a novel commonsense distillation framework, I2D2, that loosely follows the Symbolic Knowledge Distillation of West et al. but breaks the dependence on the extreme-scale models as the teacher model by two innovations: (1) the novel adaptation of NeuroLogic Decoding to enhance the generation quality of the weak, off-the-shelf language models, and (2) self-imitation learning to iteratively learn from the model's own enhanced commonsense acquisition capabilities. Empirical results suggest that scale is not the only way, as novel algorithms can be a promising alternative. Moreover, our study leads to a new corpus of generics, Gen-A-Tomic, that is of the largest and highest quality available to date.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
大型神经模型的培训和推断很昂贵。但是,对于许多应用程序域,虽然新任务和模型经常出现,但建模的基础文档主要保持不变。我们研究如何通过嵌入回收利用(ER)来降低此类设置的计算成本:在执行训练或推理时从以前的模型中重新使用激活。与以前的工作相反,重点是冻结小型分类头进行填充,这通常会导致绩效显着下降,我们提出了从预告片的模型中缓存中间层的输出,并为新任务的剩余层进行填充。我们表明,我们的方法在训练过程中提供了100%的速度和55-86%的推理,并且对科学领域中文本分类和实体识别任务的准确性产生了可观的影响。对于通用域的问答任务,ER提供了类似的加速和少量准确性。最后,我们确定了ER的几个开放挑战和未来的方向。
translated by 谷歌翻译
随着大型语言模型的出现,抽象性摘要的方法取得了长足的进步,从而在应用程序中使用了帮助知识工人处理笨拙的文档收集的潜力。一个这样的环境是民权诉讼交换所(CRLC)(https://clearinghouse.net),其中发布了有关大规模民权诉讼,服务律师,学者和公众的信息。如今,CRLC中的摘要需要对律师和法律专业的学生进行广泛的培训,这些律师和法律专业的学生花费数小时了解多个相关文件,以便产生重要事件和结果的高质量摘要。在这种持续的现实世界摘要工作的激励下,我们引入了Multi-iplesum,这是由正在进行的CRLC写作中绘制的9,280个专家作者的摘要集。鉴于源文档的长度,多文章介绍了一个具有挑战性的多文档摘要任务,通常每个情况超过200页。此外,多胎sum与其多个目标摘要中的其他数据集不同,每个数据集都处于不同的粒度(从一句“极端”摘要到超过五百个单词的多段落叙述)。我们提供了广泛的分析,表明,尽管培训数据(遵守严格的内容和样式准则)中的摘要很高,但最新的摘要模型在此任务上的表现较差。我们发布了多体式的摘要方法,以及促进应用程序的开发,以协助CRLC的任务https://multilexsum.github.io。
translated by 谷歌翻译
支架结构的构建支持所需的基序,赋予蛋白质功能,显示出对疫苗和酶设计的希望。但是,解决这个主题交易问题的一般解决方案仍然开放。当前的脚手架设计的机器学习技术要么仅限于不切实际的小脚手架(长达20个长度),要么难以生产多种不同的脚手架。我们建议通过E(3) - 等级图神经网络学习各种蛋白质主链结构的分布。我们开发SMCDIFF以有效地从给定主题的条件下从该分布中采样脚手架;我们的算法是从理论上确保从扩散模型中的有条件样品,以大规模计算限制。我们通过与Alphafold2预测的结构保持一致的方式来评估我们设计的骨干。我们表明我们的方法可以(1)最多80个残基的样品支架,以及(2)实现固定基序的结构多样的支架。
translated by 谷歌翻译
知识图(kg)链接预测是人工智能中的一项基本任务,在自然语言处理,信息检索和生物医学中的应用。最近,通过使用结合知识图嵌入(KGE)和上下文语言模型(LMS)的合奏,通过利用KGS中的跨模式信息来实现有希望的结果。但是,现有的合奏要么是(1)在排名准确性提高方面并不始终有效,要么(2)由于与深度语言模型的成对排名的组合爆炸问题,在较大数据集上效率不佳。在本文中,我们提出了一种新型的分层排名架构级联,以保持完全结合的排名准确性,同时大大提高效率。 Cascader使用LMS来重新启动更有效的基本毛金属的输出,依靠自适应子集选择方案,旨在最小化LMS,同时最大程度地利用KGE的精度增益。广泛的实验表明,Cascader在KGE基线上最多可提高9分,从而在四个基准上设定新的最先进的性能,同时在竞争性跨模式基线上提高效率一个或多个数量级。我们的经验分析表明,模型跨模式的多样性和保存单个模型的置信度信号有助于解释级联者的有效性,并提出了跨模式级联体系结构的有希望的方向。可以在https://github.com/tsafavi/cascader上获得代码和预估计的模型。
translated by 谷歌翻译
在许多背景下,预测将在给定期间发起特定活动的人口中的个人数量是有用的。例如,将安装软件更新的用户数量,将在网站上使用新功能或将参与A / B测试的客户数量。在实际设置中,在分发时间内,个人存在异质性,直到它们会发起。出于这些原因,假设在连续日期观察到的新人数量是不合适的。鉴于参与初始时期的独特用户数量的观察,我们提出了一种简单但新的贝叶斯方法,用于预测随后将在随后的时间内参与的额外个人的数量。我们说明了该方法在在线实验中预测样本量的性能。
translated by 谷歌翻译
预测任务标签和为其预测生成自由文本阐述的自律化模型可以实现与NLP系统更直观的交互。然而,这些模型目前正在接受大量人为的自由文本解释,每个任务都会阻碍更广泛的使用。我们建议使用少数培训例子研究更现实的自律化建立。我们出示2月 - 一个标准化的四个现有英语数据集和相关指标。我们通过2月份广泛探索自然语言提示来确定正确的提示方法。然后,通过使用此提示并缩放模型大小,我们证明了几次拍摄自合合理化的进展。我们展示了这项任务的完善房间仍然有充足的改进空间:人类注册人评估的生成解释的平均合理性最多为51%,而人类解释的合理性是76%。我们希望2月份与我们的拟议方法一起促使社区承担几次拍摄的自我合理化挑战。
translated by 谷歌翻译